Lance
https://lance-project.github.io/assets/text-to-video/videos/t2v-fg-sp-0000-opt.mp4
https://lance-project.github.io/Project
https://arxiv.org/abs/2605.18678v2Lance: Unified Multimodal Modeling by Multi-Task Synergy
https://github.com/bytedance/Lancebytedance/Lance
https://huggingface.co/bytedance-research/Lancebytedance-research/Lance
3Bのunified multimodal model
テキスト/画像/動画の理解/生成/編集を一つのモデルで行う
https://gyazo.com/91849ab21268b071816aac4d59b26785
統合モデルだが、完全にトークンを共有するのではなく、
理解はViT semantic token + next-token prediction
生成はVAE latent token + velocity prediction。
MaPE
ViT由来の意味token、条件用clean VAE latent token、生成対象noisy VAE latent tokenを、位置と役割の両方で区別するためのRoPE拡張